Sagemaker Autopilot – AutoML ジョブ実行時、トレーニングジョブが早期停止される理由について教えてください
こんにちは、yagiです。
ドイツでは現在、クリスマスマーケットが開催されています。
街全体がクリスマスマーケットの開催と共にクリスマスムード全開となっており、とても幻想的な雰囲気に包まれています。
ただ、冷凍庫の中を散歩しているかのごとく、毎日がすごく寒いです。
困っていた内容
Sagemaker Autopilotにて、「トレーニングジョブの早期停止」の設定値がオフであるにも関わらず、AutoML ジョブの多くのトレーニングジョブが自動停止された理由について教えてほしい。
どう対応すればいいの?
まず、Amazon SageMakerの自動モデルチューニングにおいて学習ジョブの早期停止機能については、以下の弊社記事をご参照ください。
Amazon SageMakerの自動モデルチューニングにおいて学習ジョブの早期停止機能がサポートされました – Amazon SageMaker Advent Calendar 2018
早期停止された理由
早期停止に「オフ」を設定した場合であっても、チューニング戦略に「Hyperband」を選択した場合、早期停止が実行されることがあります。
ハイパーパラメータ調整の仕組み - 早期停止のあるHyperband
Training jobs can be stopped early when they are unlikely to improve the objective metric of the hyperparameter tuning job. This can help both reduce compute time and avoid overfitting your model. Hyperband uses an advanced internal mechanism to apply early stopping. Thus, the parameter TrainingJobEarlyStoppingType in the HyperParameterTuningJobConfig API must be set to OFF when using Hyperband's internal early stopping feature.
(機械翻訳) トレーニング ジョブは、ハイパーパラメータ チューニング ジョブの客観的メトリックを改善する可能性が低い場合、早期に停止できます。これは、計算時間を短縮し、モデルのオーバーフィットを回避するのに役立ちます。ハイパーバンドは、高度な内部メカニズムを使用して早期停止を適用します。したがって、Hyperband の内部早期停止機能を使用する場合、HyperParameterTuningJobConfig API のパラメータ TrainingJobEarlyStoppingType を OFF に設定する必要があります。
チューニング戦略 Hyperband について
SageMaker Autopilot では、データセットのサイズが 100 MB 以上の場合、Hyperband を利用してハイパーパラメータの最適化を実施します。
Amazon SageMaker Autopilot の実験がハイパーパラメータの最適化のトレーニングモードで最大で 2 倍高速化に
SageMaker Autopilot は 2 つのトレーニングモード、ハイパーパラメータの最適化 (HPO) と Ensemble を提供します。HPO モードでは、SageMaker Autopilot がデータセットに最も関連性が高いアルゴリズムを選択し、ベイズ最適化を使用してモデルをチューニングするためのハイパーパラメータの最適な範囲を選択します。しかし、大規模なデータセット (100 MB 以上) の場合、ベイズ最適化による調整時間が長くなる可能性があります。本日(2022/11/2)より、SageMaker Autopilot は 100 回以上のトライアルを行う 100 MB 以上のデータセットで、最先端のハイパーバンドチューニングアルゴリズムを採用した新しいマルチフィデリティのハイパーパラメータの最適化 (HPO) 戦略を使用し、100 MB 未満のデータセットには引き続きベイズ最適化戦略を活用します。マルチフィデリティの最適化戦略を使用すると、選択した目標メトリクスに対してパフォーマンスの低いトライアルを早期に停止することで、パフォーマンスの高いトライアルのためにリソースが解放されます。これにより、大規模なデータセットの HPO トレーニングモードでの SageMaker Autopilot 実験のチューニング時間が短縮されます。
上記の通り、大規模なデータセット (100 MB 以上) に対するモデルのチューニング時間の改善により、パフォーマンスの高い機械学習モデルの提供に対応するための戦略となっています。 これらを認識した上での利用が必要となります。